iT邦幫忙

data science相關文章
共有 238 則文章
鐵人賽 AI/ ML & Data DAY 17

技術 [Day 17]🧐如何利用LLM生成High Quality的增強版訓練數據集?

如何產生一個優質的 dataset 來增強訓練? 生成優質的資料集需要考慮哪些事情呢? 昨天我們介紹這個比賽的時候,有提到主辦方只給我們少量的訓練資料(20...

鐵人賽 AI/ ML & Data DAY 10

技術 [Day 10]Head Mask Pooling 池化大法好🪄🦄-解析第二三名的優勝作法:Head Mask Pooling 與 Multi-Task Learning

在看了一堆解法分享後,看到第二名的做法真的會眼前一亮🤩,而且是絕對可以低成本偷學帶到其他賽題繼續使用的! 我們直接切入正題: 🥈 2nd Solution 第二...

鐵人賽 AI/ ML & Data DAY 7

技術 [Day 7]別著急訓練模型,挖掘好用的 feature 是成功的一半: EDA 實戰演練(中)- 從 Linguistic 和 Semantic 的角度計算文本相似度

EDA (進階版) 🤔 摘要寫得和原文越像,老師給的分數會越高嗎? 直覺上來說,摘要和原文一點都不像,應該會超低分,代表根本沒有在根據原文寫作;但如果和原文一字...

鐵人賽 AI/ ML & Data DAY 6

技術 [Day 6] 別著急訓練模型,挖掘好用的 feature 是成功的一半: EDA 實戰演練(上)

在一個充滿活力的校園里,安娜老師是深受學生喜愛的教師。但是這幾年她發現,在這個信息爆炸的時代,擁有良好的摘要能力變得尤為重要。然而,許多學生在總結時往往抓不住...

技術 【Day 4】 (Big) Data Analytics 資料分析的範疇

資料分析/大數據分析的定義 是「Analytics」? 還是「Analysis」? 在慣用中文思考的情況下,兩者都被稱為分析,是無法用中文來區分兩者差異。 然而...

鐵人賽 AI/ ML & Data DAY 3

技術 [Day 3] Kaggle 自動作文評分競賽(二)- 比賽用的隱藏測試資料也和訓練資料一樣,有同樣的來源嗎?

前情提要 昨天通過一番資料分析,確認主辦方提供的 17,307 筆 training data 中,有 12,873 筆完全一模一樣的 essay 內容出現在...

鐵人賽 AI/ ML & Data DAY 2

技術 [Day 2] Kaggle 自動作文評分競賽(一)- 淺談數據洩露與內容匹配:如何確認訓練數據中的潛在泄漏?

在一個平凡的周末午後,高中老師安娜埋首於堆積如山的學生作文中。每一篇作文都承載著學生們的心血與努力,但三個班每人每週一篇長文寫作,安娜的批改速度總是趕不上學生...

鐵人賽 AI/ ML & Data DAY 1

技術 [Day 1] 緣起與文章主題介紹

緣起 如果你剛踏入數據科學的世界,那你一定聽說過 Kaggle 這個神奇的地方。Kaggle 是一個全球最大的數據科學競賽平台,匯聚了來自世界各地的數據愛好者和...

鐵人賽 自我挑戰組 DAY 30

技術 Day 30|Pandas 完賽!

嗨!大家好!我是Eva!一位正努力跨進資料科學領域的女子!沒想到寫著寫著 30 天的日子就這樣過去了,能完成挑戰實在太感動了 😭 ■ 系列回顧 在這 30 天挑...

技術 【Day 03】國際很夯的 Certified Analytics Professional (CAP) 數據分析師證照~

INFORMS(國際運籌學和管理科學協會)專業數據分析認證 引用自Certified Analytics Professional 業務理解(Busin...

技術 【Day 02】企業數位化轉型 CDA數據分析師 (Level I/II/III)

企業數位化轉型標志~數位化人才的身份認證 數位化人才認證標準——CDA(Certified Data Analyst)“CDA數據分析師”,是在數位經濟大背景和...

技術 【Day 01】經濟部112 年度 營運智慧分析師 能力鑑定 (初級)

前言 10年前學校教的 「資料探勘」 再到現在的 「數據分析」 已經慢慢朝向按照 產業專精 甚至最終 「數據科學 (人工智慧)」 ~ 其實總的來說對於數據的敏...

鐵人賽 自我挑戰組 DAY 29

技術 Day 29|Interview Query - Customer Analysis

■ 題目|Interview Query - Customer Analysis You’re given a dataframe containing sal...

鐵人賽 AI & Data DAY 30

技術 機器學習 挑戰 - Day 9 (完) + 完賽感想

續上一篇機器學習 挑戰 - Day 8 我想使用最後一篇文章來回顧我在第0天的原始計劃以及實際所做的事情。 回報時間框架: 日內交易(每日)- 我主要關注每日...

鐵人賽 自我挑戰組 DAY 28

技術 Day 28|Interview Query - Complete Addresses

■ 題目|Interview Query - Complete Addresses You’re given two dataframes. One conta...

鐵人賽 自我挑戰組 DAY 27

技術 Day 27|Interview Query - Impute Median

■ 題目|Interview Query - Impute Median You’re given a dataframe df_cheeses contain...

鐵人賽 自我挑戰組 DAY 26

技術 Day 26|Interview Query - Rain on Rainy Days

■ 題目|Interview Query - Rain on Rainy Days You’re given a dataframe df_rain conta...

鐵人賽 自我挑戰組 DAY 25

技術 Day 25|Interview Query - Over 100 Dollars

■ 題目|Interview Query - Over 100 Dollars You’re given two dataframes: transaction...

鐵人賽 自我挑戰組 DAY 24

技術 Day 24|Interview Query - Good Grades and Favorite Color

  先前,我們大約花了三週的時間學習 Pandas 的操作,是時候好好驗收學習成果了!從今天開始,我將每天和大家分享一道題目,親自撰寫解法,並提出我的解題思維,...

鐵人賽 自我挑戰組 DAY 23

技術 Day 23|資料視覺化 - Seaborn

  Python 中,除了 Matplotlib 適合用於資料視覺化之外,Seaborn 也是一個好用的函式庫,兩者經常會放在一起介紹或者使用,今天就和大家聊聊...

鐵人賽 自我挑戰組 DAY 22

技術 Day 22|資料視覺化 - Matplotlib

  Pandas 是 Python 生態系中,適合用來做資料分析或機器學習的套件,上一篇文章介紹 Pandas 中對新手相當友善的繪圖函數 plot( ) ,讓...

鐵人賽 AI & Data DAY 22

技術 『Day22』Operator 介紹

在對於外部的連結之後,我們再細部介紹一下 Operator 的使用,其實在 Operator 層級也可以有不同的使用方法。Operator 本身有多種種類,其作...

鐵人賽 自我挑戰組 DAY 21

技術 Day 21|Pandas 一招帶你快速製圖

  簡報時,我們常會聽到「用數字說話」這句話,面對主管、同事真的是講出每個數字就能讓聆聽者理解嗎?錯!大部分的人單看數字都容易眼花撩亂,想讓對方理解你的報告,圖...

鐵人賽 自我挑戰組 DAY 20

技術 Day 20|在 VS Code 印出漂亮的 DataFrame

  VS Code 的使用者應該有發現 Pandas 的輸出結果有時並不是那麼好閱讀,對於一個有版面強迫症的我來說,曾經因為 DataFrame 歪掉的格式十分...

鐵人賽 自我挑戰組 DAY 19

技術 Day 19|用 Pandas 快速完成樞紐分析

  Excel 本身提供方便的樞紐分析,但你有想過用程式該如何撰寫嗎?今天就來分享一下 Pandas 中的樞紐分析:pivot_table( ) 一起透過交叉分...

鐵人賽 自我挑戰組 DAY 18

技術 Day 18|資料的分組和聚合

  在大型數據當中,有時我們會需要透過群組的方式概括整體資料,除了用以觀察之外,也能進一步深入處理,本文將分享如何使用資料的分組和聚合操作,內容包含: 資料分...

鐵人賽 自我挑戰組 DAY 17

技術 Day 17|資料合併的三種常用語法

  在茫茫數據海當中,資料散布在各種不同的地方,可能是資料庫、網站、文件等,為了要有效統一資料集,方便後續的分析和報告,資料合併的操作是不可不學的,以下將以案例...

鐵人賽 自我挑戰組 DAY 16

技術 Day 16|自定義轉換必學的apply()函數

  在昨天標籤編碼法(Label Encoding)的舉例中,我們可以透過 sklearn 中的函數 LabelEncoder 將類別型態轉為數值型態,那大家是...